Предлагается метод оценки семантической близости документов на основе латентно-семантического анализа, учета динамики изменения сингулярных значений матрицы терм-документ и автоматического определения диапазона ранговых значений. Оценка семантической близости документов рассматривается применительно к решению задач выявления дублирования и противоречий в базах данных.
Приводится краткий обзор подходов, используемых при оценке семантической близости документов, выявлении дублирования и противоречий в базах данных и хранилищах данных. Приводятся результаты численных примеров оценки семантических зависимостей между термами документов в интересах выявления дублирования и противоречий в базах данных. При этом в качестве результирующей характеристики рассчитывается степень соответствия λ сравниваемых документов.
Приведены сравнительные оценки расчета степени соответствия λ документов с помощью основных методов (косинусной меры близости, векторной модели, коэффициента ранговой корреляции Спирмена, статической меры tf-idf — частота термина — обратная документная частота).
Показано, что использование предложенного метода анализа динамики изменения сингулярных чисел матрицы «терм-документ» с автоматическим выбором диапазона используемых ранговых значений позволяет устранить зависимость метода латентно-семантического анализа от выбора оптимального ранга.
Представлен алгоритм классификации групповых точечных объектов (ГТО), основанный на сравнительном анализе фрагментов искаженных образов и шаблонов ГТО. В качестве фрагментов использованы последовательности элементов ГТО различной длины. В качестве признаков классификации выступают попарные и угловые межточечные расстояния. При решении задачи классификации используется вероятностная мера близости, задаваемая экспертом с помощью функции принадлежности и закона распределения вероятности дискретных значений признаков классифицируемых объектов. Алгоритм включает следующие этапы: поиск и сравнение состава фрагментов искаженных образов и шаблонов ГТО; формирование вероятностной оценки близости искаженного образа ГТО и каждого шаблона в пространстве рассматриваемых признаков по результатам анализа каждого фрагмента; накопление полученных вероятностей по результатам анализа всех фрагментов искаженного образа; ранжирование полученных вероятностей отнесения искаженного образа к шаблонам ГТО; определение наиболее вероятного шаблона. В алгоритме предусмотрена возможность уточнения класса искаженного образа ГТО за счет использования логических правил и аналитических выражений рассматриваемой предметной области. Приведены пример и результаты применения данного алгоритма для решения задачи классификации реальных ГТО на основе анализа их фрагментов в виде последовательностей из двух и трех элементов.
В работе предложен адаптивный алгоритм прогнозирования временного ряда на основе выбора периода-аналога. Особенностью алгоритма является использование обучающей выборки прогнозов для автоматического выбора оптимальных параметров его работы. Алгоритм применялся для прогнозирования гидрологических временных рядов притока воды в Новосибирское водохранилище (река Обь). Показана эффективность его применения (повышение точности прогнозирования) по сравнению с базовым алгоритмом.
1 - 3 из 3 результатов